Logo

Introdução

No mundo das pesquisas estatísticas, muitas vezes nos deparamos com situações nas quais gostaríamos de realizar um estudo comparativo. Dessa forma, devemos verificar uma característica muito importante, a independência, ou seja, se existe relação direta entre os elementos dos grupos que estamos estudando ou a seleção de elementos em uma amostra não afeta as demais. Isso se mostra importante em diversos casos como em estudos clínicos que queremos investigar a eficácia de um determinado tratamento ou na comparação do desempenho de estudantes na área educacional. Sendo assim, existem duas abordagens para realizarmos essa verificação: paramétrica e não paramétrica. Neste artigo, vamos focar no teste qui quadrado de independência, um dos principais testes não paramétricos para verificar tal característica.


Teste Qui Quadrado de Independência


Para que serve?

O teste qui-quadrado de independência, como dito anteriormente, verifica se duas variáveis categóricas possuem uma associação ou se são independentes. Nesse sentido, ele é muito útil em casos onde queremos averiguar se a frequência de uma categoria em uma variável depende da categoria de outra, por exemplo, investigar se o sexo de uma pessoa está associado ao hábito de compra de um determinado produto (compra/não compra).


Requisitos

Para a realização do teste, alguns requisitos devem ser satisfeitos:

  • A amostra deve ser coletada de maneira aleatória
  • Devemos trabalhar com duas variáveis qualitativas associadas a uma mesma população


Hipóteses

Para esse teste, são definidas as seguintes hipóteses:

  • \(H_0\): Não existe associação entre as variáveis (independentes)
  • \(H_1\): Existe associação entre as variáveis (dependentes)


Estatística de Teste

Será a diferença entre os valores observados e valores esperados supondo independência:

\[\chi^2=\sum_{i=1}^r\sum_{j=1}^s \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \sim \chi^2_{(r-1)(s-1)} \]

Sob a hipótese nula \(H_0\),\(\chi^2\) tem distribuição qui-quadrado com (r-1)(s-1) graus de liberdade.


Metodologia

Primeiro, construímos uma tabela de contingência com os dados observados

  • r e s são os números de categorias das variáveis X e Y,respectivamente.
  • \(o_{ij}\), com i = 1,2,…,a e j = 1,2,…,b são os valores observados
  • \(T_{i.}\), com i = 1,2,…,a e \(T_{.j}\),com j = 1,2,…,b são os totais de cada linha e coluna,respectivamente

O próximo passo é obter os valores esperados para cada uma das células sob a hipótese nula. Ele é calculado da seguinte forma:

\[E_{i,j}=n*(\frac{T_{i.}}{n}*\frac{T_{.j}}{n})=\frac{T_{i.}*T_{.j}}{n}=\frac{\text{Total da linha i}* \text{Total da coluna j}}{\text{Total Geral}}\]


Decisão

Utilizando o método da região crítica, a hipótese nula é rejeitada se : \[\chi^2 \geq \chi^2_{(r-1)(s-1), \alpha} \]

onde \(\alpha\) é o nível de significância do teste.


Realizando o teste no R

No R,existe a função chisq.test() do pacote base stats,que realiza o teste de qui-quadrado. Ele pode ser usado tanto para testar a independência entre duas variáveis quanto para testar a aderência de uma distribuição observada a uma distribuição teórica.

Entrada:

  • x (Tabela de contingência, em formato de matriz)

Saída:

  • A estatística de teste (\(\chi^2\))
  • Graus de liberdade (df)
  • Valor-p (p-value)

Decisão:

  • Rejeita-se H0 caso o Valor-p (p-value) for menor que o nivel de significância \(\alpha\)


Exemplo:

O gênero influencia a preferência por um tipo de produto? Imagine que temos uma pesquisa com 100 pessoas, onde registramos o gênero (Masculino ou Feminino) e a preferência de produto (A ou B).

Preferência

Genero

A

B

Total

Masculino

30

20

50

Feminino

10

40

50

Total

40

60

100

Vamos testar a hipótese:

  • H0 (hipótese nula): O gênero e a escolha do produto são independentes (não há relação entre eles).
  • H1 (hipótese alternativa): O gênero e a escolha do produto não são independentes (existe associação entre as variáveis).

Resolução utilizando o R:

#Montando a tabela de contingência
dados <- matrix(c(30, 20, 10, 40), nrow = 2, byrow = TRUE)

#Realizando o teste qui-quadrado
 chisq.test(dados)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  dados
## X-squared = 15.042, df = 1, p-value = 0.0001052

Conclusão:

Como o valor-p (p-value) é menor que 0.05, rejeitamos H0, logo, existe relação entre gênero e escolha do produto.